生成文本编辑和可控制的角色视频对创建各种挖掘人的需求不大。尽管如此,此任务受到了没有配对视频置式字幕和视频生成的先前模型的全面数据集的限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,该方案可以利用易于获得的数据集(即,姿势对和无姿势的视频)和预先训练的文本图像(T2I)模型来获得姿势控制的char- acter-acter Videos。具体来说,在第一阶段,仅姿势图对仅用于可控的文本对图像。我们学习一个零定位的卷积编码器来编码姿势信息。在第二阶段,我们通过添加可学习的时间自我注意力和改革的跨框架自我注意块,通过无姿势的视频数据集对上述网络的运动进行了很好的调整。由我们的新设计提供支持,我们的方法成功地生成了不断构成可控制的角色视频,同时将概念的生成和组成能力从预先训练的T2i模型中保留下来。代码和模型可在https:// last-your-pose.github.io/上找到。
主要关键词